第1章 はじめに(『BERTによる自然言語処理入門』)
1-1 自然言語処理とは
1-1 自然言語処理とは(『自然言語処理の基本と技術』) と内容は重なる
自然言語の関わる問題をコンピュータで解くこと (p.2)
タスク
自然言語処理で扱う問題
基礎から応用まで幅広いタスクがある
多くのタスクは分類問題 (p.5)
1-2 機械学習とは
1-3 機械学習による自然言語処理
「ニューラル言語モデル」(第2章 ニューラルネットワークを用いた自然言語処理でも)
文章や単語を「密なベクトル」に変換できる (p.5)
この密なベクトル=分散表現
TF-IDFで文章を表現する場合はsparseなベクトルになるので、ここが違ってくる
sparseな扱いの例:Working With Text Data
思い出した:Word Embeddings: Encoding Lexical Semantics
密なベクトルは、なんらかの形で単語や文章の意味を反映していると考えられる
ニューラル言語モデルから得られる分散表現はデータの有用な特徴量として用いることができ、
有用性も確かめられている
ref: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
特徴抽出器としても使える
1-4 BERTとは
文脈を考慮した分散表現を生成できる (p.6)
事前学習
大量の文章のデータを用いて汎用的な言語のパターンを学習 (p.5)
ファインチューニング
「比較的少数のラベル付きデータを用いて、」「特定のタスクに特化するように学習」
事前学習済みのBERT + ラベル付きデータ(正解がわかっているデータ)